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正如 不 同 的 病症 需要 使 用 不 同 的 医疗 技术 方法 来 诊断 一 样 , 不 同 的 认 知 结构 也 需要 设计 对 应 的 测验 模式 


来 进行 诊断 ， 从 而 保证 测验 具有 高 质量 的 诊断 评估 效果 。 但 传统 测验 形式 未 考虑 不 同 认 知 结构 的 针对 性 诊断 测验 
需求 导致 "后 人 一 卷 "在 测验 效率 上 有 所 不 足 ; 认 知 诊断 计算 机 化 自 适 应 测验 虽 可 针对 不 同 认 知 结构 的 被 试 施 测 
不 同 的 项 目 ,然而 支持 自 适应 过 程 的 题库 却 没有 针对 不 同 认 知 结构 被 试 设计 对 应 的 项 目 ， 导 至 题库 使 用 效率 较 低 。 
要 解决 上 述 问题 的 关键 在 于 , 探索 如 何 针对 不 同 认 知 结构 设计 相对 应 的 测验 模式 。 本 研究 采用 Monte Carlo 模拟 ， 
对 六 种 属性 层级 关系 下 ,不 同 认 知 结构 的 测验 设计 模式 进行 探讨 。 实 验 结果 表明 (1) 同 一 属性 层级 关系 下 ,不 同 认 
知 结构 的 最 佳 测验 设计 模式 不 同 ; (2) 依 据 不 同 认 知 结构 的 最 佳 测验 设计 模式 构建 的 题库 具有 更 高 的 使 用 效率 。 测 
验 编制 者 可 以 根据 实验 结果 针对 不 同 认 知 结构 优化 对 应 的 测验 设计 模式 ,并 用 于 指导 题库 建设 。 
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认 知 诊断 评价 (Cognitive Diagnose Assessment, 
CDA, Leighton & Gierl，2007) 以 认 知 诊断 模型 
(Cognitive Diagnosis Model, CDM) 为 基础 ， 是 对 被 
试 认 知 结构 或 认 知 过 程 的 诊断 评估 。 同 其 他 评价 方 
法 相 比 , CDA 能 实现 对 个 体 认 知 优势 与 劣势 的 诊断 ， 
从 而 为 教师 对 学 生 进 行 补救 教学 、 开 展 因 材 施 教 提 
供 指导 。 与 此 同时 ,提供 诊断 信息 , 已 经 成 为 现代 
教育 发 展 的 重要 和 需求。 近年 来 兴起 的 “互联 网 +” 智 
莫 测 评 ， 强 调 测 验 需要 癌 学 生 、 家 长 以 及 教师 提供 
诊断 信息 。 在 这 个 趋势 下 , CDA 已 经 成 为 心理 与 教 
育 测量 学 界 最 重要 的 研究 热点 之 一 (Chiu，Douglas， 
& Li, 2009; de la Torre, 2008; De la Torre & Douglas, 
2004; DeCarlo, 2010; Liu, Xu, & Ying, 2012; B$, 
Ki RAK, WEF, 2013; FER, FMR, 喻 晓 锋 ， 
高 棒 雷 , 彭 亚 风 ，2015; 罗 照 成 , 喻 晓 锋 等 ，2015; 
RA, Bet, WALT, 2013; 喻 晓 锋 等 , 2015)。 

正 像 医生 需要 用 一 些 特 定 的 医疗 技术 方法 来 
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诊断 患者 病症 一 样 , CDA 也 需要 相应 的 工具 才能 探 
查 被 试 不 可 直接 观察 的 认 知 结构 ， 以 实现 其 诊断 功 
能 。 这 个 工具 就 是 认 知 诊断 测验 (如 无 特别 说 明 , 本 
文中 的 测验 均 指 认 知 诊断 测验 )。 那 么 如 何 设计 一 
个 合理 的 诊断 测验 ? 一 般 来 说 , 诊断 测验 编制 的 大 
致 流程 为 : 首先 定义 属性 及 其 层级 关系 ; 然后 设计 
Q 和 矩阵 (表征 了 项 目 和 属性 间 关 系 ); 最 后 命题 专家 
依据 所 设计 的 Q 矩阵 编制 项 目 组 成 测验 进行 测试 。 
要 精确 诊断 不 同 种 类 的 认 知 结构 就 需要 使 用 为 其 
“ 量 身 定制 ”的 测验 。 目 前 ， 关 于 诊断 测验 设计 的 研 
究 可 以 分 为 以 下 两 大 类 : 传统 测验 形式 的 设计 模式 
研究 和 计算 机 化 自 适应 测验 (computerized adaptive 
test, CAT) 的 设计 模式 研究 。 

传统 测验 形式 是 用 一 套 结 构 固 定 的 试题 去 诊 
汤 具 有 不 同 认 知 结构 的 被 试 群体 ,为 了 实现 对 被 试 
的 高 效 诊 断 ， 人 研究 者 就 如 何 设计 这 套 试题 的 结构 进 
ÍT T R ZA fe HY HRD (Liu, Huggins-Manley, & 
Bradshaw, 2017; Madison & Bradshaw, 2015; J 
良 , 汪 文 义 , 杨 淑 群 , 2011; 丁 树 良 ， 杨 淑 群 , EXX, 


* 国家 自然 科学 基金 (31660279)、 江 西 省 社会 科学 规划 (16JY36)、 江 西 省 研究 生 创新 专项 基金 (YC2015-B025) 资 助 。 


通信 作者 : 罗 照 成 , E-mail: luozs@126.com 


130 


第 1 期 


2010; EK, 罗 照 感 ， 喻 晓 锋 ， 高 椿 雷 ， 李 喻 骏 ， 
2016)。 研 究 结果 均 指 出 , 在 测验 结构 Q 和 矩阵 里 包 
E R*( 由 于 可 达 和 矩阵 是 特定 概念 ,为 不 引起 混淆 ， 
本 文 将 Q 矩阵 中 包含 与 可 达 和 矩阵 元 素 结 构 相 同 的 
FAME PPR AZ R ME, WA R*) 可 以 提高 对 被 试 的 
分 类 准确 性 。 进 一 步 ， 彭 亚 风 等 人 (2016) 针 对 不 同 
属性 个 数 及 其 层级 关系 ， 提 出 了 进行 诊断 评价 时 Q 
和 矩阵 优化 设计 的 一 些 建议 。 这 类 人 研究 从 被 试 群体 的 
角度 提出 了 传统 测验 形式 的 结构 优化 设计 ,但 是 未 
考虑 不 同 认 知 结构 的 针对 性 诊断 需求 ,存在 “ 千 人 
一 卷 " 的 相对 单一 性 ,无 法 做 到 “ 因 人 施 测 ”， 因 而 
不 可 避免 地 在 测验 效率 上 有 所 不 足 。 

相 比 之 下 ,， 认 知 诊断 计算 机 化 自 适 应 测验 
(cognitive diagnosis computerized adaptive test, CD- 
CAT) 有 着 传统 测验 形式 所 不 具备 的 优势 ， 即 能 够 
根据 被 试 认 知 结构 的 不 同 测试 不 同 的 项 目 。 这 种 测 
验 形 式 虽 然 能 保证 被 试 所 做 的 项 目 是 当前 题库 中 
最 优 的 ,但 是 用 来 文 持 自 适应 测试 过 程 的 题库 在 设 
计时 并 没有 考虑 针对 不 同 认 知 结构 命 制 针 对 性 的 
项 目 ， 这 就 从 根本 上 限制 了 被 试 与 项 目 之 间 的 契合 
程度 。 更 进一步 , 这 就 可 能 导致 题库 利用 率 出 现 问 
题 ， 例如 , 项 目的 过 度 上 曝光 、 曝 光 不 足以 及 曝光 不 
均匀 等 问题 。 这 些 问题 会 影响 测验 安全 ， 导 致 项 目 
开发 与 维护 的 成 本 增加 (Wang, Chang, & Huebner, 
2011; 毛 秀 珍 , 辛 涛 , 2013; RMB, THR, MEK, 
2012)。 

探索 如 何 针 对 不 同 认 知 结构 设计 相对 应 的 测 
验 模式 ， 这 是 尝试 解决 题库 建设 过 程 中 一 个 重要 的 
先导 问题 。 在 解决 了 这 一 问题 ,明确 认 知 结构 和 项 
日 之 间 关 系 的 前 提 下 ,才能 从 根本 上 保证 “< 因 人 施 
测 ” 以 及 优化 题库 设计 。 

综 上 所 述 ， 本 人 研究 拟 考察 不 同 认 知 结构 的 测验 
设计 模式 ， 以 期 构建 出 不 同 认 知 结构 的 最 佳 测验 设 
计 模 式 ， 为 题库 建设 提供 切实 可 行 的 建议 ,进而 帮 
助 提 高 诊断 效率 的 同时 降低 题库 建设 成 本 。 本 文 包 
含 两 个 模拟 实验 : 实验 1 探讨 了 不 同 认 知 结构 的 最 
佳 测验 设计 模式 ; 实验 2 考察 了 基于 不 同 认 知 结 
构 的 最 佳 测验 设计 模式 在 CD-CAT 题库 构建 中 的 
应 用 。 


2 ”研究 方法 

正如 前 文 所 述 , 为 不 同 认 知 结构 被 试 设计 对 应 
的 测验 模式 是 为 了 高 效 精准 地 诊断 被 试 , 这 与 CAT 
的 测验 目的 相 吻合 。 而 要 实现 这 一 目的 需 构 建 优质 
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题库 。 为 此 ，Reckase (2003, 2007, 2010) 借 助 CAT 
的 测验 方式 “ 反 过 来 ”探索 优质 题库 的 形态 ,并 提出 
了 CAT 中 题库 的 优化 设计 方法 一 一 p- 优 化 方法 。 
Reckase 提出 了 最 佳 题库 的 概念 ， 即 对 每 一 种 选 题 
策略 ,都 能 在 题库 中 找到 符合 该 策略 特定 范围 P 内 的 
THA, 并 且 将 这 种 设计 称 之 为 “p- 优 化 ”(p-optimal)。 
在 p- 优 化 的 思路 下 ,车 采用 最 大 Fisher 信 息 量 选 题 ， 
则 题库 中 只 要 有 能 够 提供 达到 最 大 信息 量 p% 的 项 
目 便 可 接受 。 据 此 ，Reckase 提出 了 基于 Rash 模型 
的 题库 优化 设计 方法 。 其 大 致 步骤 为 : 首先 , 依据 
Rash 模型 Fisher 信息 量 的 计算 公式 可 以 算出 最 大 
Fisher 信息 量 p% 所 对 应 的 难度 区 间 (bin), 并 以 此 
区 间 长 度 为 单位 将 难度 量 表 划 分 成 多 个 区 间 ; 其 次 ， 
随机 抽取 被 试 施 测 CAT,， 记录 每 个 被 试 在 每 个 区 间 
上 所 需 的 项 目 数量 ; 再 次 , 依据 最 大 题 量 原则 ， 对 
被 试 施 测 后 在 各 个 区 间 上 的 项 目 数 量 进 行 融合 ， 随 
着 被 试 数量 的 增多 , 各 个 区 间 内 项 目 数量 趋 于 稳定 ; 
最 后 , 汇总 所 有 区 间 上 的 项 目 数量 及 其 测量 学 信息 ， 
形成 题库 优化 设计 蓝图 。 

受 p- 优 化 方法 的 启发 ,， 在 其 基础 上 , 根据 CDA 
的 特点 ， 提 出 针对 不 同 认 知 结构 的 最 佳 测验 设计 模 
式 构 建 方法 ,IRT 和 CDA 存在 着 两 点 不 同 :第 一 , 项 
目的 测量 学 信息 不 同 。IRT 下 表现 为 项 目 参数 (如 难 
度 ， 区 分 度 ), 而 CDA 的 项 目测 量 学 信息 不 仅 包括 
项 目 参 数 ， 还 包括 项 目 所 考察 的 属性 组 合 。 第 二 ， 
被 试 的 测量 学 信息 不 同 。IRT 中 被 试 能 力 水 平 是 连 
续 数 值 ， 取 值 范围 为 [-co，+oo], 通常 假定 服从 正 态 
分 布 , 而 CDA 中 被 试 的 认 知 结构 是 离散 的 ， 且 当 
属性 层级 关系 及 其 个 数 确定 时 ， 所 有 可 能 的 认 知 结 
构 就 是 固定 的 , 同时 典型 项 目 考 核 模式 也 就 确定 
了 。 基 于 CDA 的 以 上 特点 考虑 ， 当 测验 所 考察 属 
性 已 确定 的 情况 下 , 将 构建 不 同 认 知 结构 的 最 佳 测 
验 设计 模式 的 具体 步骤 设 定 如 下 : 

(1) 划 分 区 间 。 根 据 给 定 的 属性 及 其 层级 关系 ， 
计算 典型 项 目 考核 模式 , 将 每 种 模式 记 为 一 个 区 间 。 

(2) 模 拟 CD-CAT 并 记录 各 个 区 间 内 的 项 目 数 
量 。 针 对 某 一 种 认 知 结构 的 被 试 群体 ， 从 中 随机 抽 
取 被 试 进入 CD-CAT, 并 记录 被 试 所 做 项 目 。 当 施 
测 完 一 名 被 试 后 ,根据 项 目 所 属 的 区 间 , 计算 该 被 
试 在 每 个 区 间 里 所 做 项 目的 数量 , (CD-CAT 的 题库 
中 包含 所 有 典型 项 目 考核 模式 ， 且 每 种 模式 的 项 目 
数量 足够 大 ,项目 参数 的 分 布 区 间 足 人 够 广 。) 

(G3) 融 合 。 依 据 最 大 题 量 原则 ， 对 被 试 施 测 后 在 
各 个 区 间 上 的 项 目 数量 进行 融合 。 例 如 , 在 区 间 A 
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E, 被 试 1 测 了 5 个 项 目 , thik 2 为 3 个 项 目 ， 融 
合 后 以 5 个 项 目 作 为 区 间 A 的 期 望 项 目 数量 。 

(4) 重 复 第 2 步 和 第 3 步 , 直到 该 认 知 结构 中 所 
有 被 试 施 测 完毕 , 汇总 各 个 区 间 内 的 项 目 数 量 ， 即 
可 得 到 该 种 认 知 结构 下 的 最 佳 测 验 设 计 模 式 。 

下 面 通 过 一 个 例子 进行 简单 的 说 明 。 

假定 属性 个 数 为 5, 属性 层级 关系 为 独立 型 
(Independent) (Tatsuoka, 1995)。 被 试 i 和 被 试 n 的 
认 知 结构 真 值 均 为 [1 1 0 0 0]。 采 用 后 验 加 权 K-L 
信息 (posterior-weighted Kullback-Leibler, PWKL) 
(Cheng, 2009), A EJIE i 和 被 试 n 在 某 种 认 
知 结构 的 最 大 后 验 概率 不 低 于 0.95， 则 终止 测验 。 
记录 两 名 被 试 在 整个 测验 过 程 中 的 选 题 、 作 答 及 参 


数 估计 情况 , 结果 如 表 1 和 表 2 所 示 。 


表 1 被 试 i 基 于 PWKL 所 选 出 的 项 目 、 作 答 、 认 知 结 


构 估 计 值 及 其 后 验 概率 


认 知 结构 


mame TREE pe T 后 验 概率 
1 [01100] 0 [00000] 0.0408 
2 [0000 1] 0 [00000] 0.0772 
3 [10000] 1 [10000] 0.1321 
4 [10010] 0 [10000] 0.2219 
5 [0 1 000] 1 [11000] 0.5687 
6 [11000] 1 [11000] 0.8187 
7 [00100] 0 [11000] 0.8725 
8 [01010] 0 [11000] 0.9236 
9 [01001] 0 [11000] 0.9719 


R2 itn 基于 PWKL 所 选 出 的 项 目 、 作 答 、 认 知 结 


构 估计 值 及 其 后 验 概率 


项 目 属性 


认 知 结构 


项 目 顺序 向 量 作答 估计 值 后 验 概 率 
1 [0111 0] 0 [00000] 0.0354 
2 [0000 1] 0 [00000] 0.0661 
3 [000 1 0] 1 [00010] 0.1356 
4 [10010] 0 [00010] 0.2339 
5 [0 0 1 00] 0 [00010] 0.3618 
6 [0 1 0 00] 1 [01010] 0.6818 
7 [01010] 0 [01000] 0.2269 
8 [00010] 0 [01000] 0.3832 
9 [11000] 1 [11000] 0.786 
10 [11000] 1 [11000] 0.8715 
11 [10001] 1 [L1001] 0.5342 
12 [11001] 0 [11000] 0.8578 
13 [11001] 0 [11000] 0.9272 
14 [10100] 0 [11000] 0.979 


学 R 第 50 48 

表 1 和 表 2 分 别 为 被 试 i 和 被 试 n 在 CD-CAT 
过 程 中 所 选择 项 目的 属性 向 量 、 作 答 情 况 、 做 完 每 
个 项 目 后 认 知 结构 的 估计 值 及 其 后 验 概 率 。 按照 最 
大 题 量 的 原则 对 每 个 区 间 内 的 项 目 个 数 进行 融合 ， 
得 到 表 3。 


表 3 各 个 区 间 内 抽取 的 项 目 个 数 (融合 后 ) 
区 间 项 目 个 数 
10000 
01000 
00100 
00010 
00001 
11000 
10100 
10010 
10001 
01100 
01010 
01001 
11001 
01110 


— N =æ æ e= =e =e = N =e N 一 


[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 
[ ] 


同时 , 通过 表 1 和 表 2 可 以 发 现 单个 被 试 的 整 
个 测验 过 程 可 以 分 为 两 个 阶段 : 试验 性 探查 阶段 
GEN 0 阶段 ) 和 精确 估计 阶段 ( 记 为 1 阶段 )。 其 中 , 1 
阶段 指 的 是 被 试 认 知 结构 的 估计 值 与 真 值 一 致 之 
后 的 阶段 , 在 此 阶段 所 做 项 目 不 会 改变 认 知 结构 的 
估计 值 ， 只 会 一 直 增 加 该 估计 值 的 后 验 概 率直 至 达 
到 终止 规则 , 例如 表 1 中 的 5~9 题 ; 0 阶段 就 是 1 阶 
段 之 前 的 阶段 , 例如 表 1 中 的 1~4 题 , 表 2 中 的 
1~11 题 ,需要 注意 的 是 , 受 随机 因素 的 影响 ,0 阶段 
时 被 试 认 知 结构 的 估计 会 存在 波动 , 例如 表 2 中 被 
试 n 在 完成 9~10 题 后 ,其 认 知 结构 均 估计 正确 , 但 
第 11 题 之 后 又 估计 错误 。 

那么 , 不 同 认 知 结构 的 被 试 在 0 阶段 和 1 阶段 
抽取 的 项 目 类 型 是 否 存 在 某 种 规律 ? 探讨 此 问题 
可 为 不 同 认 知 结构 的 最 佳 测验 设计 模式 提供 更 加 
明确 的 设计 方向 ， 进一步 节省 测验 编制 的 成 本 。 


3 实验 1: 不 同 认 知 结构 的 最 佳 测 
验 设 计 模 式 
本 研究 考察 在 不 同属 性 个 数 、 不 同属 性 层级 关 
系 的 情况 下 , 不 同 认 知 结构 的 最 佳 测验 设计 模式 。 
3.1 方法 
3.1.1 属性 个 数 及 其 层级 关系 的 类 型 
本 研究 考察 的 属性 个 数 有 两 种 水 平 : K=5 个 、 
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K=6。 属 性 层级 关系 : 6 种 类 型 , 分 别 为 ， 直线 型 
(Linear), AAA (Convergent), R (Divergent), 
无 结构 型 (Unstructured) 4 v7. 2 (Independent). YH 
合 型 (Mixture)。 其 中 ,混合 型 是 一 种 多 种 属性 层级 
关系 并 存 的 关系 类 型 ， 是 为 了 仿真 实际 测验 情境 中 
可 能 存在 较为 复杂 的 属性 层级 关系 模式 。( 所 有 属 
性 层级 关系 示意 图 见 网 络 版 附录 1, 附录 2)。 
3.1.2 ”被 试 与 题库 设计 

(1) 被 试 设计 

由 于 当 属 性 的 个 数 及 其 层级 关系 确定 以 后 ， 所 
有 认 知 结构 的 类 型 便 以 确定 。 因 此 , 为 了 探索 出 每 
种 认 知 结构 的 最 佳 测验 设计 模式 ,固定 每 种 认 知 结 
构 的 被 试 人 数 均 为 100 人 。 即 被 试 认 知 结构 分 布 ， 
服从 均匀 分 布 。 

(2) 题 库 设计 

属性 的 个 数 及 其 层级 关系 决定 了 典型 项 目 考 
核 模式 的 种 类 。 因 此 , 设 定 每 种 典型 项 目 考核 模式 
均 重 复出 现 40 次。 项 目 参 数 : s A g 服从 均 分 分 布 
U (0.05, 0.25). 
3.1.3 ”采用 的 认 知 诊断 模型 

本 研究 采用 的 认 知 诊断 模型 为 DINA 模型 。 
DINA 模型 在 拥有 简洁 项 目 参 数 的 同时 , 分 类 准确 
性 较 高 (De la Torre & Douglas, 2004)。DINA 模型 的 
公式 如 下 : 


P(Y =1æ)=(1-s5;)" 97" ® 
其 中 ， 
Nij = Taz" (2) 
k=l 


7; 表示 的 是 被 试 i 是否 掌 握 了 项 目 j 所 考核 的 
所 有 属性 ; qi 表示 的 是 项 目 j 是 否 考察 了 属性 k; 
sj : 被 试 掌握 了 项 目 j 所 考核 的 所 有 属性 , 112 
的 概率 ; g: 被 试 未 全 部 掌握 项 目 j 所 考核 的 所 有 
属性 , 但 是 答对 的 概率 。 
3.1.4 ”采用 的 选 题 策略 

PWKL 为 判 准 率 较 高 且 使 用 较为 广泛 的 一 种 
选 题 策略 ， 其 公式 如 下 : 
PWKL, (a ) = 


2° | PLY, = y|âi 本 
之 So Ea =y a) nia} 


Hitt, af 为 被 试 i 作答 完 t 个 项 目 后 认 知 结构 
MSHE, P(Y) = yli | EAA ái 的 被 试 在 
mE j 上 作答 反应 是 y 的 概率 ; w. 为 任意 一 种 认 知 
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结构 (c=1, 2, 3,…, 29), P(Y =y|w) 是 认 知 结构 为 
wo 的 被 试 在 项 目 ) 上 作答 反应 是 y 的 概率 ; xi, (æ) 
是 认 知 结构 为 ao 后 验 概率 .PWKEL 的 选 题 标 准 为 在 
当前 认 知 结构 估计 值 &; 下 ， 从 剩余 题库 中 选择 具 
有 最 大 PWKL 值 的 项 目 给 被 试 作答 。 

3.1.5 ”终止 规则 

采用 变 长 终止 规则 , 设 定 的 标准 为 当 被 试 属于 
某 种 认 知 结构 的 最 大 后 验 概率 不 低 于 0.95。 使 用 变 
长 的 终止 规则 来 探索 每 种 认 知 结构 的 最 佳 测 验 设 
计 模 式 的 原因 在 于 , 一 方面 可 以 设 定 每 个 被 试 的 测 
量 精度 相同 ,可 以 有 更 高 的 估计 精度 (Babcock & 
Weiss，2009); 男 一 方面 更 能 体现 出 自 适应 的 特点 
和 优势 ( 郭 舌 ， 郑 蝉 金 , 边 玉 芳 , 2015)。 

3.1.6 CD-CAT 模拟 及 认 知 结构 估计 

用 Monte Carlo 方法 进行 模拟 。 第 2 部 分 已 经 
详细 地 介绍 了 实验 的 具体 过 程 ， 这 里 主要 介绍 第 2 
部 分 步骤 2 中 被 试 CD-CAT 过 程 的 模拟 方法 ， 具 体 
步骤 如 下 : 

(1) 选 题 , 使 用 PWKL 选 题 ， 随 机 产生 被 试 的 认 
知 结构 初 值 ， 然后 基于 认 知 结构 初 值 通过 PWKL 
选择 第 一 个 项 目 。 

CO) 模拟 作答 。 运 用 DINA 模型 的 项 目 反 应 函数 
计算 被 试 在 所 选项 目 上 的 正确 作答 概率 p。 然 后 生 
成 一 个 随机 数 r, 奉 p>r, 则 被 试 在 该 项 目 上 的 作答 
记 为 1， 否则 为 0 分 。 

(3) 估 计 认 知 结构 。 根据 被 试 在 已 作答 项 目 上 的 
反应 通过 最 大 后 验 概率 方法 (Maximum A Posterior, 
MAP) 估 计 被 试 的 认 知 结构 及 其 后 验 概 率 。 

(4) 再 选 题 。 再 根据 选 题 策 略 从 剩余 题库 中 选 出 
与 被 试 当前 认 知 结构 估计 值 最 匹配 的 项 目 给 被 试 
作客 

(5) 重 复 步 又 2 至 步骤 4 直至 被 试 属于 某 种 认 知 
结构 的 最 大 后 验 概率 不 低 于 0.95。 

在 每 个 被 试 CD-CAT 模拟 过 程 中 ,记录 其 所 抽 
取 的 项 目 、 每 做 完 一 个 项 目 后 认 知 结构 的 估计 值 及 
其 后 验 概 率 。 
实验 重复 次 数 为 30 次 。 

评价 指标 
模式 判 准 率 (Pattern Match Ration，PMRJ) 用 于 
考察 被 试 认 知 结构 的 仿真 性 ， 它 指 被 试 认 知 结构 判 
对 的 人 数 占 总 人 数 的 百分比 , PMR 越 大 ,表明 分 类 
准确 性 越 高 。 计 算 公 式 如 下 : 


PMR = a (4) 


3.1.7 


134 心 理 


OA 1A 2A 3A 4A 5A 


其 中 ,NN HRA R a BK i 的 认 知 结构 真 
值 与 其 参加 测验 后 估计 得 到 的 认 知 结构 估计 值 相 
等 ， 则 Ni. correct =1, 反之 则 Ni orree =0 
3.2 ”实验 结果 

六 种 属性 层级 关系 下 使 用 PWKL 选 题 的 PMR 
均 在 0.96 之 上 , 具有 较 高 判 准 率 , 图 1 为 K=5 时 , 六 
种 属性 层级 关系 下 每 种 认 知 结构 的 平均 测验 长 度 
( 记 为 TL ) 以 及 0、1 阶段 测验 长 度 占 总 长 度 的 百 分 
比 ( 分 别 记 为 TL% MTL% ) (K=6 时 的 结果 呈现 相 
同 趋势 ， 请 见 网 络 版 附录 3), 横 坐 标 为 认 知 结构 的 
种 类 ， 纵 坐标 为 平均 测验 长 度 。 因 为 属性 层级 关系 
越 松 散 ， 其 对 应 的 认 知 结构 的 种 类 就 越 多 ， 故 为 了 
便于 结果 的 清晰 呈现 , 依据 认 知 结构 中 掌握 的 属性 
个 数 将 每 种 属性 层级 关系 下 所 有 的 认 知 结构 分 为 6 
类 : 掌握 了 0、1、2、3、4、5 个 属性 的 认 知 结构 
类 型 ， 分 别 记 为 0A, 1A, 2A, 3A, 4A, SA (下 同 )。 

总 体 而 言 , 属性 层级 关系 越 紧 密 ，TL 越 小 ; F 
一 属性 层级 关系 下 不 同 认 知 结构 类 型 的 TL 各 不 相 
同 。 六 种 属性 层级 关系 下 , 0 阶段 时 的 平均 测验 长 度 
与 认 知 结构 中 掌握 的 属性 个 数 成 正比 (TL6% 逐渐 
增 大 )，1 阶段 与 之 相反 (TL1% 逐渐 减 小 )。 即 0A 至 
5A, TL% 大 致 范围 分 别 为 : 20%~30%、20%~40%、 
30%~50%、40%~60%、60% 左 右 ，TL1% 大 致 范围 
分 别 为 1-TLy% 。 

以 直线 型 为 例 ， 对 1 阶段 时 认 知 结构 为 [0000 
0] 的 所 有 被 试 在 区 间 [1 0 0 0 0] 上 抽取 的 项 目 数 量 
进行 频次 分 析 , 结果 见 表 4。 通 过 表 4 发 现 , 在 区 间 
[10000] 上 抽取 了 2 个 项 目的 有 86 人 次 , 抽取 了 3 
个 项 目的 有 6 人 次 , 项 目的 有 9 人 次 , 抽取 了 6 个 
项 目的 仅 有 1 人 次 ,此 时 最 大 题 量 为 6。 由 此 可 见 ， 
第 2 部 分 步骤 3 并 不 适合 使 用 最 大 题 量 的 原则 进行 
融合 。 因 为 若 按照 最 大 题 量 的 融合 原则 , 则 [0 0 00 
0] 的 认 知 结构 在 区 间 [1 000 0] 上 需要 6 个 项 目 ， 而 
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一 $9 一 直线 型 
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发 散 型 
一 < 一 无 结构 型 
一 洲 一 独立 型 
一 @ 一 混合 型 


0 JA IA 2A 3A 4A 5A 
认 知 结构 类 型 
图 1 六 种 属性 层级 关系 下 不 同 认 知 结构 类 型 的 平均 测验 总 长 度 以 及 0、1 阶段 测验 长 度 
占 总 长 度 百分比 (K=5, 30 次 平均 结果 ) 


#4 认 知 结构 为 [0 0 0 0 0] 的 所 有 被 试 在 区 间 [10000] 
上 抽取 项 目 数量 的 频次 分 布 
项 目 数量 人 数 


NH wm 上 W N 
= O OO A 


实际 上 , 绝 大 多 数 被 试 都 是 抽取 了 3 个 以 下 的 项 目 ， 
这 会 造成 这 个 区 间 内 的 项 目 数量 虚 高 ,增加 命题 成 
本 。 因 此 , 本 研究 采用 了 另外 两 种 方法 来 进行 融合 。 
方法 1: 区 间 内 项 目 数 量 分 布 的 平均 数 加 1 个 标准 
差 ( 记 为 M+SD); 方法 2: 区 间 内 项 目 数 量 分 布 的 第 
90 百 分 位 数 ( 记 为 Po9o)。 

图 2 为 K=5 时 , 使 用 pyo 得 到 的 六 种 属性 层级 
KAP, 所 有 认 知 结构 类 型 在 0、1 阶段 选 出 来 的 项 
目 类 型 及 其 个 数 (M+SD 的 结果 与 peo 基 本 一 致 ， 见 
网 络 版 附录 4; K=6 时 呈现 相同 趋势 ， 对 应 结果 请 见 
网 络 版 附录 5 和 附录 0)。 为 了 结果 的 清晰 呈现 ， 对 
实验 结果 进行 如 下 处 理 : 首先 ， 对 每 个 区 间 按 照 其 
考察 的 属性 个 数 进行 分 类 , 分 为 : 考察 1、2、3、4、 
5 个 属性 的 项 目 类 型 , 分别 记 为 1A, 2IA, 3IA, 4IA， 
SIA (FE); 然后 ,针对 每 种 认 知 结构 ,将 各 个 项 目 
类 型 所 包含 区 间 里 的 项 目 数量 分 别 累 加 ; 最 后 , OR 
取 各 认 知 结构 类 型 下 ， 上 一 步 所 得 累加 值 的 平均 
数 。 结 果 如 图 2 所 示 。 

从 图 2 中 的 每 一 行 可 以 看 出 , 同一 属性 层级 关 
系 内 不 同 认 知 结构 类 型 抽取 的 项 目 类 型 及 其 个 数 
均 不 同 ， 即 不 同 认 知 结构 有 不 同 的 最 佳 测验 设计 模 
式 。 认 知 结构 类 型 中 掌握 的 属性 个 数 与 抽取 的 项 目 
类 型 中 考察 的 属性 个 数 呈 正比 。0 阶段 和 1 阶段 最 
佳 测验 设计 模式 的 相同 之 处 在 于 , 项 目的 抽取 围绕 
目标 属性 (当前 认 知 结构 中 擎 握 的 属性 ) 展 开 ， 且 随 
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图 2 六 种 属性 层级 关系 下 所 有 认 知 结构 类 型 在 0、1 阶段 下 选 出 的 项 目 类 型 及 其 个 数 (K=5，poo, 30 次 平均 结果 )。 图 
中 国 圈 面积 的 大 小 与 项 目 个 数 成 正比 : 项 目 被 抽取 的 个 数 越 多 , 图 中 圆圈 对 应 的 面积 就 越 大 。 最 小 面积 代表 被 抽取 的 
项 目 平均 个 数 为 0.2, 最 大 面积 代表 被 抽取 的 项 目 平均 个 数 为 12.9。 


着 认 知 结构 类 型 中 掌握 属性 个 数 的 增加 ,抽取 的 项 
目 类 型 种 类 增多 ; 不 同 之 处 在 于 , 0 阶段 时 , 不 同 认 
知 结构 类 型 抽取 的 项 目 类 型 大 部 分 比较 一 致 ，! 阶 
段 更 多 抽取 的 是 考察 属性 个 数 与 认 知 结构 类 型 中 
掌握 属性 个 数 较 为 接近 的 项 目 类 型 (图 中 表现 为 明 
显 的 对 角 线 集中 趋势 )。 

具体 来 说 ,0 阶段 时 ， 随 着 认 知 结构 类 型 中 掌 
握 属 性 个 数 的 增加 , 3IA、4IA 中 的 项 目 个 数 逐 渐 增 
加 :0A 时 抽取 1IA 中 每 种 项 目 考 核 模 式 1~2 个, 2IA 
中 每 种 项 目 考核 模式 1~2 个 ; 1A 时 抽取 TIA, 21A 
中 考察 了 目标 属性 的 项 目 2 个 ,1IA 中 考察 非 目标 
属性 的 项 目 各 1 个; 2A 在 1A 基础 上 增加 2IA、3IA 
中 考察 目标 属性 的 项 目 各 1 个 ; 3A 在 1A 基础 上 增 
加 2IA 中 未 考察 目标 属性 的 项 目 2 个 以 及 3IA 中 考 
察 目 标 属性 的 项 目 各 2 个 ; 4A、5A 抽取 的 项 目 类 型 
与 3A 大 致 相同 。1 阶段 时 ，0A 时 抽取 1IA 中 每 种 
项 目 考核 模式 2~3 个 ; 1A~5A 的 最 佳 测验 模式 为 在 


0 阶段 对 应 模式 基础 上 , 逐渐 减少 了 1A, 21A 的 项 
目 个 数 , 逐渐 增加 了 3IA、4IA、5IA 中 考察 目标 属 
性 的 项 目 个 数 1~2 个 。 

Flaugher (2000) 指 出 要 实现 CAT 的 优势 ， 题 库 
中 必须 包含 针对 不 同 能 力 水 平 的 高 质量 题目 。 同 理 ， 
CD-CAT 可 以 为 每 种 认 知 结构 提供 最 匹配 测验 的 
AUPE AE, 题库 中 应 该 包含 针对 每 种 认 知 结构 类 型 所 
需 的 所 有 项 目 类 型 及 其 个 数 。 因 此 , 使 用 最 大 题 量 
原则 将 所 有 认 知 结构 的 最 佳 测验 设计 模式 在 每 个 
区 间 内 的 项 目 数量 进行 融合 , 得 到 了 该 种 属性 个 数 
及 其 层级 关系 下 的 题库 建设 蓝图 ,结果 见 表 5。 

表 5 为 六 种 属性 层级 关系 下 题库 中 需要 的 项 目 
类 型 及 其 个 数 。 从 表 5 可 以 看 出 六 种 属性 层级 关系 
F, 题库 容量 与 层级 关系 的 紧密 程度 成 反比 。 因 为 
属性 层级 关系 越 紧 密 ， 其 对 应 的 典型 项 目 考核 模式 
的 种 类 就 越 少 ， 从 而 导致 每 种 项 目 类 型 里 的 项 目 数 
量 也 越 小 。 


130 心 理 


表 5 不 同属 性 个 数 时 六 种 属性 层级 关系 下 题库 中 各 个 


项 目 类 型 的 数量 分 布 
属性 层 属性 项 目 类 型 题库 
级 关系 个 数 UA 2IA 3IA 4A SIA. OIA 容量 
直线 型 ”K=5 5 4 4 4 4 21 
K=6 4 5 5 5 5 4 28 
收敛 型 ”K=5 5 5 9 5 4 28 
K=6 4 5 10 4 5 4 32 
发 散 型 ”K=5 5 10 11 8 2 36 
K=6 6 10 17 14 6 2 55 
无 结  K=5 5 18 16 10 2 51 
构 型 k6 7 2 27 21 5 1 83 
独立 型 K=5 22 28 19 8 1 78 
K=6 30 47 38 21 7 0 143 
混合 型 K=5 14 15 12 8 2 51 
K=6 15 13 12 12 8 2 62 


具体 来 说 (以 K=5 为 例 )， 从 题库 容量 和 属性 层 
级 关系 的 对 应 关系 上 来 看 ， 每 种 属性 层级 关系 下 的 
典型 项 目 考 核 模式 种 类 是 决定 题库 容量 的 重要 指 
标 。 直 线 型 、 收 敛 型 和 发 散 型 下 所 需 的 题库 容量 是 
对 应 的 典型 项 目 考 核 模式 种 类 的 4~5 倍 , 无 结构 和 
混合 型 时 为 3~4 f, 独立 型 为 2~3 倍 。 例 如 ,独立 
型 情况 下 典型 项 目 考 核 模 式 有 31 种 ， 则 此 时 的 题 
库容 量 为 62~93 之 间 较 为 合适 。 

进一步 地 ， 从 题库 和 项 目 类 型 的 关系 上 看 , 不 
同 的 项 目 类 型 有 着 不 同 的 项 目 数量 ,影响 着 题库 的 
Ky). 每 种 项 目 类 型 的 项 目 数量 与 该 项 目 类 型 所 包 
含 典型 项 目 考核 模式 的 种 类 有 关 ,， 且 因 属 性 层级 关 
系 的 不 同 而 不 同 : 直线 型 和 收敛 型 情况 下 , 1IA~5IA 
中 所 包含 的 每 种 典型 项 目 考 核 模式 均 5 个 左右 , 例 
如 ， 直 线 型 情况 下 1IA 中 仅 包 含 1 种 典型 项 目 考核 
模式 ([1 0 0 0 0])， 则 题库 中 应 该 包含 5 个 该 种 考核 
模式 的 项 目 , 最 终 WA 的 项 目 数量 为 5， 其余 情况 
以 此 类 推 ; 发 散 型 下 , 1IA 至 5IA 中 所 包含 的 每 种 典 
型 项 目 考 核 模式 的 项 目 个 数 分 别 为 5 个 ,5 个 , 4 个 ， 
4 个 ,2 个 ; 当 属 性 层级 关系 为 无 结构 时 , 分 别 为 :5 
个 ,5 个 ,3 个 ,3 个 ,2 个 ; 独立 型 情况 下 ,对 应 的 项 
目 个 数 分 别 为 ; 5 个 ,3 个 ,2 个 ,2 个 ,1 个 。 混合 型 
时 1IA 至 STA 中 所 包含 的 每 种 典型 项 目 考核 模式 的 
项 目 个 数 验证 了 上 述 结果 , 例如 1IA 中 每 种 典型 项 
目 考 核 模 式 为 $ 个 ; 2IA 中 属于 独立 型 关系 的 属性 
(Al 和 A4) 组 成 的 典型 项 目 考 核 模式 ([1 0 0 1 0]) 的 
项 目 个 数 和 属于 直线 型 关系 的 属性 (Al 和 A2) 组 合 
([1 1000]) 的 项 目 个 数 分 别 为 3 个 和 5 个 ; 3IA 中 属 
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于 独立 型 关系 的 属性 (A1、A4 和 A5) 组 合 ([10011]) 
的 项 目 个 数 为 2 个 , 属于 收敛 型 关系 的 属性 (Al、 
A3 和 A4) 组 合 ([1 0 1 1 0]) 的 项 目 个 数 为 4 个 。 

实验 1 还 在 CD-CAT 中 使 用 了 香农 太 (Shannon 
Entropy, SHE) (Tatsuoka, 2002; Xu, Chang, & Douglas, 
2003) 选 题 策略 ， 实 验 结果 呈现 出 相同 的 规律 ( 限 
于 篇 幅 未 在 本 文中 列 出 , 感 兴趣 的 读者 ,可 与 作者 
联系 )。 


4 实验 2: 基于 不 同 认 知 结构 的 最 
住 测验 设计 模式 在 CD-CAT 题库 
构建 中 的 应 用 


目前 研究 者 常用 的 两 个 题库 模拟 方法 : 陈 平 提 
出 的 模拟 题库 的 方法 (Chen, Xin, Wang, & Chang, 
2012; 陈 平 ，2011; 陈 平 ， 辛 涛 ，2011a，2011b) 以 及 
Cheng 的 方法 (Cheng, 2009, 2010; Zheng & Chang, 
2016; 毛 秀珍 ,， 辛 涛 ，2013)。 实 验 2 的 主要 目的 是 
比较 这 两 种 题库 与 实验 1 中 基于 不 同 认 知 结构 的 最 
佳 测 验 设 计 模 式 构建 的 题库 在 CD-CAT 中 的 使 用 
效率 。 

4.1 方法 

属性 个 数 : K=6。 属 性 层级 关系 为 独立 型 。 采 
用 的 认 知 诊断 模型 为 DINA 模型 ， 选 题 策 略为 
PWKL. CD-CAT 模拟 及 认 知 结构 估计 与 实验 1 一 
人 致 。 实 验 重复 次 数 为 30 次 。 

41.1 被 试 与 题库 设计 

被 试 总 人 数 为 1000, 并 且 假 设 每 个 被 试 掌握 
每 个 属性 的 概率 是 50%。 题库 的 生成 : 包含 3 个 题 
库 , 分 别 是 :题库 1 按照 实验 1 中 得 到 的 独立 型 K=6 
时 题库 建设 规律 生成 ,题库 容量 为 152, 其 中 
1IA-6IA 里 每 种 项 目 考 核 模式 的 项 目 个 数 为 : 5 个 、 
3 个 、2 个 、2 个 、1 个 、1 个 ; 题库 2 按照 Cheng 
的 方法 : 每 个 项 目 至 少 考 查 一 个 属性 ,并 且 考 查 每 
个 属性 的 概率 为 0.2, 题库 大 小 与 题库 1 一致; 题库 
3 按照 陈 平 的 方法 生成 一 个 360x6 的 Q 矩阵， 其 中 
包含 三 种 类 型 的 基本 Q FEM. IPE PANT ABA s 
和 g 服从 均 分 分 布 U (0.05, 0.25). 

41.2 ”终止 规则 

分 别 采 用 定 长 与 变 长 的 终止 规则 : 定 长 下 设 定 
测验 长 度 TL 为 20; 变 长 下 设 定 被 试 属于 某 种 认 知 
结构 的 最 大 后 验 概率 不 低 于 0.95。 

4.1.3 ”评价 标准 

(1) 被 试 诊断 效果 评价 指标 :采用 重复 实验 下 的 

PMR 来 评价 诊断 效果 ; 
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(2) 题 库 使 用 均匀 性 指标 (x ): x 用 于 评价 项 目 
观察 曝光 率 和 期 望 曝光 率 之 间 的 差异 ， 其 计算 公式 
如 下 : 


ya no (5) 


其 中 ,er 是 第 j 个 项 目的 曝光 率 ， 等 于 作答 项 
H j 的 被 坛 人 数 除 以 参加 测验 的 总 被 试 人 数 N; er; 
HW H j 的 期 望 曝光 率 ， 等 于 测验 长 度 开除 以 题库 
容量 。X? 指 标 越 小 , 说 明 整 个 题库 的 使 用 越 均匀 。 
(3) 测 验 重 又 率 指标 ( 记 为 了 ): 随机 选择 的 两 个 
被 试 之 间 期 望 重生 的 项 目 个 数 与 测验 长 度 之 比 , 其 


J 

ÈT; (T, -1) 
es 
TL *N*(N -1) 

其 中 , 工 是 第 j 个 项 目的 被 调用 次 数 ， 其 余 符号 
的 定义 与 x 相同。 

此 外 ,还 记录 了 最 大 曝光 率 ( 记 为 Max.er)、 最 
小 曝光 率 ( 记 为 Min.er)、 曝 光 率 大 于 20% 的 项 目 数 
量 ( 记 为 er > 20%) 以 及 题库 中 未 使 用 的 项 目 数量 
百分比 ( 记 为 never used%)。 
4.2 ”实验 结果 

研究 结果 如 图 3、 表 6 和 表 7 所 示 。 图 3 呈现 
的 是 CD-CAT 中 不 同 终止 规则 下 不 同 题库 对 被 试 
的 诊断 效果 , R 6 和 表 7 分别 呈现 的 是 CD-CAT 中 
不 同 终止 规则 下 3 种 题库 的 题库 使 用 情况 指标 。 


(6) 


1.00 
0.95 — 
= 0.90 
Ay 
一 6 一 定 长 
0.85 一 @ 一 不 定 长 
0.80 


题库 1 题库 2 题库 3 
图 3 不 同 终止 规则 下 3 种 题库 的 PMR 


R6 定 长 情况 下 3 种 题库 的 使 用 情况 


upi 2 和 er 之 never 

题库 x T Max.er Min.er 70%  used% 
题库 1 45.96 0.46 0.96 0 32.23 7.19% 
题库 2 58.00 0.54 0.99 0 32.36 24.3% 
题库 3 150.43 0.47 0.96 0 30.00 52.06% 


EREE: AN Ta A Ze 4) ak A ST eh 137 
R7 变 长 情况 下 3 种 题库 的 使 用 情况 以 及 平均 测验 长 度 
平均 测验 never 
日 而 j > 0 
题库 长 度 Max.er Min.er er = 20% used% 
题库 1 15.33 0.94 0 22.43 15.11% 
题库 2 14.32 0.98 0 20.73 24.93% 
题库 3 12.99 0.96 0 18.1 58.61% 


从 图 3 可 以 看 出 , 在 定 长 与 变 长 两 种 终止 规则 
下 ,3 种 题库 的 PMR 差异 不 大 ,基本 均 在 0.95 之 上 。 

由 表 6 可 知 , 题库 1 的 x 指标 最 小 为 45.96, 题 
PE 3 的 ?指标 最 大 ; 就 重 释 率 而 言 , 题库 1 WES 
KRR, 题库 2 的 最 高 ; 另外 , 三 种 题库 的 最 大 项 
目 曝 光 率 都 接近 1, 最 小 项 目 曝光 率 均 为 0， 曝光 率 
大 于 20% 的 项 目 均 在 30 个 左右 ,值得 注意 的 是 , 题 
库 1 的 未 使 用 项 目 比 例 最 低 ， 仅 为 7.19%。 

由 表 7 可 知 , 题库 1 的 平均 测验 长 度 为 15.33， 
略 高 于 题库 2 的 14.32 和 题库 3 的 12.99; 三 种 题库 
的 最 大 项 目 曝 光 率 都 接近 1， 最 小 项 目 曝光 率 均 为 
0, 曝光 率 大 于 20% 的 项 目 均 在 20 TAA. 同样 的 ， 
题库 1 的 未 使 用 项 目 比 例 最 低 , 为 15.11%, 题库 3 
最 高 ， 为 58.61%。 

从 整体 上 看 ,题库 1 的 使 用 效率 最 高 ， 在 题库 
使 用 方面 的 表现 较 其 他 两 种 题库 要 好 。 


5 讨论 


5.1 不 同 认 知 结构 的 最 佳 测验 设计 模式 

从 实验 结果 可 以 看 出 , 不 同 认 知 结构 的 最 佳 测 
验 设 计 模式 不 相同 。 具 体 表 现在 不 同 认 知 结构 的 最 
佳 测验 长 度 , 试验 性 探查 阶段 (0 阶段 ) 和 精确 佑 计 
阶段 (1 阶段 ) 的 设计 模式 均 不 相同 。 其 中 ,最 佳 测验 
长 度 由 0、1 阶段 的 最 佳 测验 设计 模式 所 决定 。0 
阶段 是 对 被 试 认 知 结构 的 试验 性 探查 阶段 , 需要 还 
个 排查 被 试 在 每 个 属性 上 是 否 掌握 。 因 此 , 不 同 认 
知 结构 类 型 测验 设计 模式 中 的 大 部 分 项 目 类 型 比 
较 一 致 ; 而 1 阶段 是 对 被 试 认 知 结构 的 精确 估计 阶 
段 ， 对 不 同 认 知 结构 有 着 更 加 精确 的 定位 需求 ， 与 
之 对 应 的 最 佳 测验 设计 模式 也 呈现 出 更 加 明显 的 
寺 点 : 不 同 认 知 结构 类 型 的 最 佳 测验 设计 模式 中 的 
MH, 其 考察 的 属性 个 数 与 当前 认 知 结构 类 型 中 掌 
握 的 属性 个 数 较为 接近 ,与 此 同时 ,0 阶段 和 1 阶段 
的 最 佳 测 验 设计 模式 也 有 共同 之 处 ， 即 均 围 绕 目 标 
属性 展开 。 具 体 规律 如 下 : 

0 阶段 时 , 掌握 了 0 个 属性 的 认 知 结构 ( 记 为 
OA, 以 此 类 推 ， 随 着 认 知 结构 中 掌握 的 属性 个 数 的 
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增加 ， 分 别 记 为 1A，2A，……: ,KAI) 的 最 佳 测验 设 
计 模 式 为 : 考察 1 个 属性 的 每 种 项 目 考核 模式 和 考 
察 2 个 属性 的 项 目 考核 模式 各 1~2 个 , 例如 直线 型 
情况 下 , 认 知 结构 [0 0 0 0 0] 需 要 考核 模式 为 [1 0 0 
0 0] 和 [1 1 0 0 0] 的 项 目 各 1~2 个 ; 1A: 考察 1 个 和 
2 个 属性 的 项 目 类 型 中 考察 了 认 知 结构 已 掌握 属性 
(目标 属性 ) 的 项 目 各 2 个 ,考察 1 个 属性 的 项 目 类 
型 中 考察 了 认 知 结构 未 掌握 属性 ( 非 目 标 属性 ) 的 项 
目 各 1 个 , 例如 独立 型 情况 下 , 认 知 结构 [1 0 0 0 
0]( 第 一 个 属性 为 目标 属性 ， 其 余 为 非 目 标 属 性 ) 需 
要 考核 模式 为 [10000] 的 项 目 2 个 ,[L1000]、f[1 
0100]、[10010]、[10001] 这 四 种 考核 模式 中 
的 任意 1 种 2 个 或 任意 2 种 各 1 个 , 以 及 [0 1 0 00]、 
[00100]、[00010]、[00001] 这 四 种 考核 模式 
各 1 个 ;2A: 在 1A 基础 上 增加 考察 2、3 个 属性 的 
项 目 类 型 中 考察 了 目标 属性 的 项 目 各 1 个 ; 3A 在 
1A 基础 上 增加 考察 2 个 属性 的 项 目 类 型 中 考察 了 
非 目 标 属 性 的 项 目 2 个 , 考察 3 个 属性 的 项 目 类 型 
中 考察 目标 属性 的 项 目 各 2 个 ; 4A~KA: 在 (K-1)A 
基础 上 ,增加 考察 天 个 属性 的 项 目 1 个 左右 。 

1 阶段 时 ， 随 着 认 知 结构 中 掌握 属性 个 数 的 增 
加 ,考察 1 个 和 2 个 属性 的 项 目 个 数 逐渐 减少 ， 考 
察 属性 向 量 与 认 知 结构 属性 向 量 相 同 以 及 与 其 相 
差 1~2 个 属性 的 项 目 类 型 逐渐 增多 ，0A 除外 。0A 
时 抽取 考察 1 个 属性 的 项 目 类 型 中 每 种 项 目 考核 模 
式 2~3 个 ; 1A~KA 的 最 佳 测 验 设计 模式 为 在 0 阶段 
对 应 模式 基础 上 , 减少 了 考察 1 2 个 属性 的 项 目 个 
数 ， 相 应 增加 考察 3、4 至 K 个 属性 中 考察 目标 属 
性 的 项 目 个 数 1~2 个 。 

通过 将 测验 过 程 划 分 为 0 阶段 和 1 阶段 可 以 看 
出 , 在 不 同 的 测验 情景 下 ,0 阶段 的 最 佳 测验 设计 
模式 都 具有 一 定 的 共性 ,结合 1 阶段 最 佳 测验 设计 
模式 所 体现 出 的 特异 性 ， 能 够 为 题库 蓝图 设计 提供 
更 加 明确 的 指导 意见 ,进一步 的 节约 命题 成 本 。 
5.2 ”基于 不 同 认 知 结构 的 最 佳 测验 设计 模式 建 

构 题 库 

实验 2 的 结果 可 以 看 出 ,基于 不 同 认 知 结构 的 
最 佳 测验 设计 模式 构建 出 的 题库 ， 其 使 用 效率 比 人 研 
究 者 常用 的 题库 更 高 。 这 表明 采用 实验 1 得 到 的 题 
库 蓝 图 可 以 指导 题库 的 建设 , 缓解 了 题库 中 项 目 浪 
费 的 情况 。 通 过 分 析 实 验 1 中 的 题库 蓝图 ,推论 得 
到 了 不 同属 性 层级 关系 下 题库 建设 的 一 般 规律 : 

在 题库 容量 方面 ， 目 标 领 域内 属性 个 数 及 其 层 
级 关系 下 的 典型 项 目 考核 模式 种 类 是 决定 题库 容 
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量 的 重要 指标 。 直 线 型 、 收 钱 型 和 发 散 型 下 所 需 的 
题库 容量 是 对 应 的 典型 项 目 考核 模式 种 类 的 4~5 倍 ， 
无 结构 时 为 3~4 倍 , 独立 型 为 2~3 倍 。 

在 题库 所 包含 的 项 目 类 型 方面 ， 每 种 项 目 类 型 
的 项 目 数量 与 该 项 目 类 型 所 包含 典型 项 目 考核 模 
式 的 种 类 有 关 , 且 因 属性 层级 关系 的 不 同 而 不 同 : 
直线 型 和 收敛 型 情况 下 ， 每 种 项 目 类 型 中 所 包含 的 
每 种 典型 项 目 考核 模式 均 5 个 左右 ; 剩 下 三 种 属性 
层级 关系 下 ， 随 着 项 目 类 型 中 考察 的 属性 个 数 的 增 
加 ， 对 应 所 包含 的 每 种 典型 项 目 考核 模式 的 项 目 个 
数 依 次 减少 : 考察 1~3 个 属性 的 项 目 类 型 中 每 种 典 
型 项 目 考核 模式 的 项 目 个 数 分 别 为 5、4、3 个 左右 ， 
考察 4 个 至 天 -1 个 属性 的 项 目 类 型 中 每 种 典型 项 目 
考核 模式 的 项 目 个 数 均 为 2 个 左右 , 以 及 1 个 左右 
考察 天 个 属性 的 典型 项 目 考 核 模式 。 

综 上 所 述 , 本 人 研究 通过 探讨 每 种 认 知 结构 的 最 
佳 测验 设计 模式 ,明确 了 认 知 结构 与 项 目 类 型 之 间 
的 关系 ,找到 不 同 认 知 结构 所 需 的 针对 性 项 目 ， 并 
在 此 基础 上 推论 得 到 题库 蓝图 建设 的 一 般 规 律 。 

建设 题库 是 一 项 系统 工程 ,需要 多 学 科 专 业 人 
员 ( 学 科 专 家 、 心 理 与 教育 测量 人 员 、 计 算 机 技术 
人 员 等 ) 协 同 攻关 , 在 科学 的 题库 建设 理论 指导 下 
有 步骤 地 进行 ( 漆 书 青 ， 戴 海 琦 ， 丁 树 恨 , 2002)。 本 
文 从 理论 上 探讨 了 题库 建设 的 一 般 框架 ,提供 一 种 
科学 建设 题库 的 新 方法 ,实践 者 可 以 依据 该 新 方法 ， 
通过 模拟 事先 确定 题库 的 大 致 结构 ， 再 根据 实际 需 
要 结合 考察 学 科 内 容 、 测 验 时 间 等 因素 ,进一步 细 
化 题库 建设 方案 , 这 样 构 建 出 的 题库 既 适 用 于 诊断 
包含 有 不 同 认 知 结构 类 型 的 被 试 群体 ， 又 同时 避免 
了 命 制 实则 无 法 助 益 于 提升 测验 效率 的 项 目 ， 节 约 
题库 建设 成 本 。 但 该 题库 容量 相对 较 小 ,在 一 定 程 
度 上 会 增 大 项 目 过 度 曝 光 的 可 能 性 ,这 也 是 之 后 人 研 
究 所 需 改进 的 方向 。 
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Abstract 

Doctors have to use different medical technologies to diagnose different kinds of illness effectively. 
Similarly, teachers have to use well designed tests to provide an accurate evaluation of students with different 
cognitive structures. To provide such an evaluation, we recommend to adopt the Cognitive Diagnostic 
Assessment (CDA). CDA could measure specific cognitive structures and processing skills of students so as to 
provide information about their cognitive strengths and weaknesses. 

In general, the typical design procedure of a CDA test is as follow: firstly, identify the target attributes and 
their hierarchical relationships; secondly, design a Q matrix (which characterizes the design of test construct and 
content); finally, construct test items. Within that designing framework, two forms of test are available: the 
traditional test and the computerized adaptive test (CAT). The former is a kind of test that has a fixed-structure 
for all participants with different cognitive structures, the latter is tailored to each participant’s cognitive 
structure. Researchers have not, however, considered the specific test design for different cognitive structures 
when using these two test forms. As a result, the traditional test requires more items to gain a precise evaluation 
of a group of participants with mixed cognitive structures, and a cognitive diagnosis computer adaptive test 
(CD-CAT) has low efficiency of the item bank usage due to the problems in assembling a particular item bank. 
The key to overcome these hurdles is to explore the appropriate design tailored for participants with different 
cognitive structures. 

As discussed above, a reasonable diagnosis test should be specific for the cognitive structure of target 
examinees so to perform classification precisely and efficiently. This is in line with CAT. In CAT, an ideal item 
bank serves as a cornerstone in achieving this purpose. In this regard, Reckase (2003, 2007 & 2010) came up 
with an approach named p-optimality in designing an optimal item bank. Inspired by the p-optimality and 
working according to the characteristics of CDA, we proposed a method to design the test for different cognitive 
structures. We conducted a Monte Carlo simulation study to explore the different test design modes for different 
cognitive structures under six attribute hierarchical structures (Linear, Convergent, Divergent, Unstructured, 
Independent and Mixture). 

The results show that: (1) the optimal test design modes for different cognitive structures are different 
under the same hierarchical structure in test length, initial exploration stage (Stage 0), accurately estimation 
stage (Stage 1); (2) the item bank for cognitive diagnosis computer adaptive test (CD-CAT) we built, according 
to the different cognitive structures’ optimal test design modes, has a superior performance on item pool usage 
than other commonly used item banks no matter whether the fixed-length test or the variable-length test is used. 
We provide suggestions for item bank assembling basing on results from these experiments. 

Key words cognitive structure; test design; item bank design 
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附录 1: 六 种 基本 的 属性 层级 关系 示意 图 (K=5) 
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附录 2: 六 种 基本 的 属性 层级 关系 示意 图 (K=6) 


A. 直线 型 (Linear) 


B. 收敛 型 (Convergent) 


C. ÆA (Divergent) 


D. 无 结构 型 (Unstructured) 


E. 独立 型 (Independent) 


F. 混合 型 (Mixture) 
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附录 3: 六 种 属性 层级 关系 下 不 同 认 知 结构 类 型 的 平均 测验 总 长 度 以 及 0、1 阶段 所 占 总 长 度 百 分 比 (K=6，30 次 平均 
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附录 4: 六 种 属性 层级 关系 下 所 有 认 知 结构 在 0、1 阶段 下 选 出 的 项 目 类 型 及 其 个 数 (K=5, M+SD, 30 次 平均 结果 ) 
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附录 5: 六 种 属性 层级 关系 下 所 有 认 知 结构 在 0、1 阶段 下 选 出 的 项 目 类 型 及 其 个 数 (K=6, poo, 30 次 平均 结果 ) 
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附录 6: 六 种 属性 层级 关系 下 所 有 认 知 结构 在 0、1 阶段 下 选 出 的 项 目 类 型 及 其 个 数 (K=6, M+SD, 30 次 平均 结果 ) 
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